智能论文笔记

BagPipe: Accelerating Deep Recommendation Model Training

Saurabh Agarwal , Chengpo Yan , Ziyi Zhang , Shivaram Venkataraman

分类：机器学习

2022-02-24

Deep learning based recommendation models (DLRM) are widely used in several business critical applications. Training such recommendation models efficiently is challenging primarily because they consist of billions of embedding-based parameters which are often stored remotely leading to significant overheads from embedding access. By profiling existing DLRM training, we observe that only 8.5% of the iteration time is spent in forward/backward pass while the remaining time is spent on embedding and model synchronization. Our key insight in this paper is that access to embeddings have a specific structure and pattern which can be used to accelerate training. We observe that embedding accesses are heavily skewed, with almost 1% of embeddings represent more than 92% of total accesses. Further, we observe that during training we can lookahead at future batches to determine exactly which embeddings will be needed at what iteration in the future. Based on these insight, we propose Bagpipe, a system for training deep recommendation models that uses caching and prefetching to overlap remote embedding accesses with the computation. We designed an Oracle Cacher, a new system component which uses our lookahead algorithm to generate optimal cache update decisions and provide strong consistency guarantees. Our experiments using three datasets and two models shows that our approach provides a speed up of up to 6.2x compared to state of the art baselines, while providing the same convergence and reproducibility guarantees as synchronous training.

translated by 谷歌翻译

Doing More by Doing Less: How Structured Partial Backpropagation Improves Deep Learning Clusters

Adarsh Kumar , Kausik Subramanian , Shivaram Venkataraman , Aditya Akella

分类：机器学习

2021-11-20

许多组织使用配备有加速器的Compute集群，例如GPU和TPU，用于以分布式方式培训深入学习模型。培训是资源密集型的，消耗显着的计算，内存和网络资源。许多先前的作品探索如何减少培训资源占资源的占资源占用空间，而不会影响质量，但它们对瓶颈的子集（通常只有网络）限制了它们改善整体集群利用的能力。在这项工作中，我们利用深度学习工作负载的独特特征来提出结构化部分反向化（SPB），这是一种系统地控制分布式培训中个别工人的背包量的技术。这同时可以减少网络带宽，计算利用率和内存占用空间，同时保持模型质量。为了有效地利用SPB在集群层面的好处，我们介绍了一个SPB了解调度程序的jigsaw，它在深度学习培训（DLT）作业中进行迭代级别。我们发现拼图可以通过高达28 \％将大规模集群效率提高。

translated by 谷歌翻译

A Comparative Study of Data Augmentation Techniques for Deep Learning Based Emotion Recognition

Ravi Shankar , Abdouh Harouna Kenfack , Arjun Somayazulu , Archana Venkataraman

分类：人工智能

2022-11-09

Automated emotion recognition in speech is a long-standing problem. While early work on emotion recognition relied on hand-crafted features and simple classifiers, the field has now embraced end-to-end feature learning and classification using deep neural networks. In parallel to these models, researchers have proposed several data augmentation techniques to increase the size and variability of existing labeled datasets. Despite many seminal contributions in the field, we still have a poor understanding of the interplay between the network architecture and the choice of data augmentation. Moreover, only a handful of studies demonstrate the generalizability of a particular model across multiple datasets, which is a prerequisite for robust real-world performance. In this paper, we conduct a comprehensive evaluation of popular deep learning approaches for emotion recognition. To eliminate bias, we fix the model architectures and optimization hyperparameters using the VESUS dataset and then use repeated 5-fold cross validation to evaluate the performance on the IEMOCAP and CREMA-D datasets. Our results demonstrate that long-range dependencies in the speech signal are critical for emotion recognition and that speed/rate augmentation offers the most robust performance gain across models.

translated by 谷歌翻译

Image Denoising Using Convolutional Autoencoder

Prashanth Venkataraman

分类：计算机视觉 | 机器学习

2022-07-24

随着现代世界的不可阻碍的数字化，技术领域的每个子集都会不断发展。这样的子集就是如此受欢迎的数字图像。图像并不总是像您希望的那样在视觉上令人愉悦或清晰，并且经常被噪音扭曲或掩盖。随着岁月的流逝，已经出现了许多增强图像的技术，所有这些技术都具有各自的利弊。在本文中，我们研究了一种特殊的技术，该技术在通常被称为自动编码器的神经网络模型的帮助下完成了这项任务。我们为模型构建不同的体系结构，并比较结果，以决定最适合该任务的架构。简短地讨论了模型的特征和工作，这可以帮助为将来的研究树立途径。

translated by 谷歌翻译

Constrained Prescriptive Trees via Column Generation

Shivaram Subramanian , Wei Sun , Youssef Drissi , Markus Ettl

分类：机器学习

2022-07-20

借助大量可用数据，许多企业寻求实施以数据为驱动的规范分析，以帮助他们做出明智的决定。这些规定的政策需要满足操作约束，并主动消除规则冲突，这两者在实践中无处不在。他们也需要简单且可解释，因此可以轻松地验证和实施它们。文献中的现有方法围绕构建规定决策树的变体以生成可解释的政策。但是，现有方法都无法处理约束。在本文中，我们提出了一种可扩展的方法，该方法解决了受限的规定政策生成问题。我们介绍了一种新型的基于路径的混合智能程序（MIP）公式，该计划通过列生成有效地标识了（接近）最佳策略。生成的策略可以表示为多道路拆分树，由于其较短的规则，它比二进制树更容易解释和信息。我们通过对合成数据集和真实数据集进行了广泛的实验来证明我们方法的功效。

translated by 谷歌翻译

Theseus: A Library for Differentiable Nonlinear Optimization

Luis Pineda , Taosha Fan , Maurizio Monge , Shobha Venkataraman , Paloma Sodhi , Ricky Chen , Joseph Ortiz , Daniel DeTone , Austin Wang , Stuart Anderson

分类：机器人 | 计算机视觉 | 机器学习

2022-07-19

我们提出了Theseus，这是一个有效的应用程序不合时宜的开源库，用于在Pytorch上构建的可区分非线性最小二乘（DNL）优化，为机器人技术和视觉中的端到端结构化学习提供了一个共同的框架。现有的DNLS实施是特定应用程序的，并且并不总是纳入许多对效率重要的成分。 Theseus是应用程序不可静止的，正如我们使用的几个示例应用程序所用的，这些应用程序是使用相同的基础可区分组件构建的，例如二阶优化器，标准成本功能和Lie组。为了提高效率，TheseUS纳入了对稀疏求解器，自动矢量化，批处理，GPU加速度和梯度计算的支持，并具有隐式分化和直接损耗最小化。我们在一组应用程序中进行了广泛的性能评估，显示出这些功能时显示出明显的效率提高和更好的可扩展性。项目页面：https：//sites.google.com/view/theseus-ai

translated by 谷歌翻译

Biologically Inspired Oscillating Activation Functions Can Bridge the Performance Gap between Biological and Artificial Neurons

Matthew Mithra Noel , Shubham Bharadwaj , Venkataraman Muthiah-Nakarajan , Praneet Dutta , Geraldine Bessie Amali

分类：神经与进化计算

2021-11-07

非线性激活功能赋予神经网络，具有学习复杂的高维功能的能力。激活功能的选择是一个重要的超参数，确定深神经网络的性能。它显着影响梯度流动，训练速度，最终是神经网络的表示力。像Sigmoids这样的饱和活化功能遭受消失的梯度问题，不能用于深神经网络。通用近似定理保证，Sigmoids和Relu的多层网络可以学习任意复杂的连续功能，以任何准确性。尽管多层神经网络来学习任意复杂的激活功能，但传统神经网络中的每个神经元（使用SIGMOIDS和Relu类似的网络）具有单个超平面作为其决策边界，因此进行线性分类。因此，具有S形，Relu，Swish和Mish激活功能的单个神经元不能学习XOR函数。最近的研究已经发现了两层和三个人皮层中的生物神经元，具有摆动激活功能并且能够单独学习XOR功能。生物神经元中振荡激活功能的存在可能部分解释生物和人工神经网络之间的性能差距。本文提出了4个新的振荡激活功能，使单个神经元能够在没有手动功能工程的情况下学习XOR功能。本文探讨了使用振荡激活功能来解决较少神经元并减少培训时间的分类问题的可能性。

translated by 谷歌翻译

CrypTen: Secure Multi-Party Computation Meets Machine Learning

Brian Knott , Shobha Venkataraman , Awni Hannun , Shubho Sengupta , Mark Ibrahim , Laurens van der Maaten

分类：机器学习

2021-09-02

安全的多方计算（MPC）允许当事方在数据私有的同时对数据进行计算。该功能具有机器学习应用程序的巨大潜力：它促进了对不同政党拥有的私人数据集的机器学习模型的培训，使用另一方的私人数据评估一方的私人模型等。尽管一系列研究实现了机器 - 通过安全MPC学习模型，此类实现尚未成为主流。没有灵活的软件框架“说话”机器学习研究人员和工程师的灵活软件框架的缺乏阻碍了安全MPC的采用。为了促进机器学习中安全MPC的采用，我们提出了Crypten：一个软件框架，该框架通过在现代机器学习框架中常见的抽象来揭示流行的安全MPC原语，例如张量计算，自动分化和模块化神经网络。本文描述了隐秘的设计，并在最新的文本分类，语音识别和图像分类的模型上衡量其性能。我们的基准表明，Crypten的GPU支持和（任意数量）各方之间的高性能通信使其能够在半honest威胁模型下对现代机器学习模型进行有效的私人评估。例如，使用密码的两方可以使用WAV2letter在语音记录中安全预测音素的速度比实时更快。我们希望Crypten能促使在机器学习社区中采用安全MPC。

translated by 谷歌翻译

Efficient Multidimensional Functional Data Analysis Using Marginal Product Basis Systems

William Consagra , Arun Venkataraman , Xing Qiu

分类： (统计)机器学习

2021-07-30

许多现代数据集，从神经影像和地统计数据等领域都以张量数据的随机样本的形式来说，这可以被理解为对光滑的多维随机功能的嘈杂观察。来自功能数据分析的大多数传统技术被维度的诅咒困扰，并且随着域的尺寸增加而迅速变得棘手。在本文中，我们提出了一种学习从多维功能数据样本的持续陈述的框架，这些功能是免受诅咒的几种表现形式的。这些表示由一组可分离的基函数构造，该函数被定义为最佳地适应数据。我们表明，通过仔细定义的数据的仔细定义的减少转换的张测仪分解可以有效地解决所得到的估计问题。使用基于差分运算符的惩罚，并入粗糙的正则化。也建立了相关的理论性质。在模拟研究中证明了我们对竞争方法的方法的优点。我们在神经影像动物中得出真正的数据应用。

translated by 谷歌翻译